Root Mean Square Normalization (RMSNorm, 2019)

1. 신경망 정규화의 패러다임과 RMSNorm의 등장

1.1 심층 신경망 훈련의 근본적 난제와 정규화의 필요성

심층 신경망(Deep Neural Network, DNN)의 발전은 인공지능 분야에 혁신을 가져왔으나, 모델의 깊이가 증가함에 따라 새로운 기술적 난제들이 부상하였다. 그중 가장 근본적인 문제는 훈련 과정의 불안정성이었다. 신경망의 층이 깊어질수록 역전파 과정에서 경사(gradient)가 기하급수적으로 작아지거나(소실, vanishing) 커지는(폭주, exploding) 현상이 발생하여, 모델 파라미터가 효과적으로 업데이트되지 못하고 학습이 정체되거나 발산하는 문제가 빈번하게 발생하였다.1 이러한 현상은 심층 모델의 잠재력을 최대한 발휘하는 데 있어 심각한 장애물로 작용하였다.

2015년, Ioffe와 Szegedy는 이러한 훈련 불안정성의 한 원인으로 ’내부 공변량 변화(Internal Covariate Shift)’라는 개념을 제시하였다.3 내부 공변량 변화란, 훈련 과정에서 각 층의 파라미터가 업데이트됨에 따라 해당 층의 입력 데이터 분포가 계속해서 변하는 현상을 의미한다. 이로 인해 다음 층은 끊임없이 변화하는 입력 분포에 적응해야 하므로 학습 속도가 느려지고 불안정해진다. 이 문제를 해결하기 위해 제안된 기법이 바로 배치 정규화(Batch Normalization, BN)이다.4 배치 정규화는 미니배치(mini-batch) 단위로 각 특징(feature)의 평균과 분산을 계산하여 입력을 정규화함으로써, 각 층의 입력 분포를 안정적으로 유지하는 데 성공하였다. 그 결과 훈련 속도를 크게 향상시키고, 더 높은 학습률을 사용할 수 있게 하며, 초기값 설정에 대한 민감도를 낮추는 등 심층 신경망 훈련에 있어 필수적인 기법으로 자리 잡았다.2

그러나 배치 정규화는 미니배치 통계량에 의존한다는 본질적인 특성 때문에 몇 가지 한계를 지녔다. 특히, 시퀀스 길이가 가변적인 데이터를 처리하는 순환 신경망(Recurrent Neural Network, RNN)이나, 메모리 제약으로 인해 작은 미니배치 크기를 사용해야 하는 경우 그 효과가 감소하거나 적용하기 까다로웠다.4 이러한 한계는 새로운 정규화 패러다임의 필요성을 시사하였다.

1.2 Layer Normalization: 배치 독립적 정규화의 표준

배치 정규화의 한계를 극복하기 위한 대안으로 2016년 Ba 등이 제안한 것이 바로 계층 정규화(Layer Normalization, LayerNorm)이다.4 LayerNorm의 핵심 아이디어는 정규화 통계량을 계산하는 단위를 미니배치에서 개별 데이터 샘플로 전환하는 것이었다. 즉, 미니배치 내 여러 샘플에 걸쳐 특징별 통계량을 계산하는 대신, 단일 데이터 샘플 내의 모든 특징(뉴런)들에 걸쳐 평균과 분산을 계산한다.5

이러한 접근 방식은 미니배치 크기에 전혀 의존하지 않으므로, 배치 크기가 1인 온라인 학습 환경이나 가변 길이 시퀀스를 다루는 RNN 및 트랜스포머(Transformer) 아키텍처에 매우 효과적이었다.4 특히 2017년 등장한 트랜스포머 아키텍처의 성공에 LayerNorm은 결정적인 역할을 하였다. 트랜스포머의 각 서브레이어(self-attention, feed-forward network)에 LayerNorm을 적용함으로써 깊은 네트워크의 훈련을 안정화하고 모델 수렴을 가속할 수 있었으며, 이는 사실상 트랜스포머를 성공적으로 훈련시키기 위한 필수 구성 요소로 간주되었다.5 이로써 LayerNorm은 자연어 처리(NLP)를 중심으로 한 시퀀스 모델링 분야에서 배치 독립적 정규화의 표준으로 확고히 자리매김하였다.

1.3 LayerNorm의 내재적 한계: 계산 오버헤드

LayerNorm은 심층 신경망 훈련의 안정성과 속도를 크게 향상시켰지만, 그 효과에는 대가가 따랐다. 바로 평균과 분산을 계산하는 과정에서 발생하는 상당한 계산 오버헤드(computational overhead)였다.9 LayerNorm 연산은 입력 벡터의 모든 요소에 대해 평균을 구하고, 다시 각 요소와 평균의 차이를 제곱하여 분산을 구하는 다단계 과정을 포함한다.

이러한 오버헤드는 모델의 규모가 작거나 정규화 계층의 수가 적을 때는 무시할 수 있는 수준이었으나, 모델이 점차 깊고 거대해짐에 따라 심각한 문제로 부상하였다.9 특히 RNN과 같이 시퀀스의 각 타임스텝마다 정규화 연산을 반복적으로 수행해야 하는 아키텍처에서는 그 부담이 더욱 가중되었다.9 결과적으로, 더 적은 훈련 스텝으로 모델을 수렴시켜 얻는 효율성 증대 효과가 각 스텝의 계산 비용 증가로 인해 상쇄되는 현상이 발생하였다.9 이는 전체적인 훈련 시간과 추론 지연 시간을 증가시켜, 특히 대규모 모델의 실용성을 저해하는 요인으로 작용하기 시작했다.

1.4 RMSNorm의 탄생: 핵심 가설과 설계 철학

LayerNorm의 계산 비효율성 문제에 직면하여, 연구자들은 LayerNorm의 성공에 기여하는 핵심 원리가 무엇인지 근본적으로 재검토하기 시작했다. 2019년, Biao Zhang과 Rico Sennrich는 LayerNorm의 두 가지 주요 속성, 즉 **재중심화 불변성(re-centering invariance)**과 **재조정 불변성(re-scaling invariance)**에 주목하였다.9 재중심화 불변성은 입력의 평균을 0으로 맞추는 속성으로, 입력이나 가중치에 일정한 편향(shift)이 더해져도 정규화된 출력은 변하지 않는 특성을 의미한다. 재조정 불변성은 입력의 분산을 1로 맞추는 속성으로, 입력이나 가중치의 스케일이 변해도 정규화된 출력은 영향을 받지 않는 특성을 의미한다.

이들은 여기서 과감한 가설을 제시하였다. “LayerNorm의 성공에 기여하는 핵심적인 속성은 재조정 불변성이며, 계산 비용이 많이 드는 재중심화 불변성은 사실상 불필요하다(dispensable)“는 것이었다.9 이 가설은 LayerNorm의 효과가 입력 분포의 평균을 제거하는 것보다는 그 규모(magnitude)를 안정화하는 데서 비롯된다는 통찰에 기반한다.

이 가설을 바탕으로, 그들은 LayerNorm의 구조를 극단적으로 단순화한 새로운 정규화 기법인 **Root Mean Square Normalization (RMSNorm)**을 제안하였다.9 RMSNorm의 설계 철학은 명확했다. 계산 오버헤드의 주된 원인인 평균 계산, 즉 재중심화 단계를 완전히 제거하고, 오직 재조정 불변성만을 유지하는 것이었다. 이를 위해 분산 대신 계산이 더 간단한 제곱 평균 제곱근(Root Mean Square, RMS) 통계량을 사용하여 입력을 정규화하였다.3 이로써 RMSNorm은 LayerNorm의 훈련 안정화 효과는 대부분 유지하면서도 계산 효율성을 극대화하는 것을 목표로 하였다.

이러한 전환은 단순한 알고리즘 최적화를 넘어, 정규화 기법의 작동 원리에 대한 패러다임의 변화를 의미했다. 기존에는 평균과 분산을 모두 제어하는 것이 당연시되었으나, RMSNorm의 등장은 이 두 요소의 기여도가 비대칭적일 수 있음을 시사했다. RMSNorm이 LayerNorm과 대등한 성능을 보이면서도 훨씬 빠르다는 것을 실험적으로 증명함으로써, 재중심화의 필요성에 대한 기존의 믿음을 성공적으로 반증하였다. 이는 정규화 연구의 방향을 복잡한 통계량 계산에서 벗어나, 핵심적인 속성만을 보존하는 미니멀리즘적 접근으로 전환시키는 중요한 계기가 되었다. 이처럼 RMSNorm은 LayerNorm의 핵심 구성 요소를 과감히 제거하고도 그 효과를 유지할 수 있음을 보임으로써, 정규화에 대한 이해를 한 단계 발전시킨 중요한 지적 기여로 평가받는다.

2. 수학적 원리 및 알고리즘 비교 분석

RMSNorm의 혁신성을 이해하기 위해서는 먼저 그 기반이 된 LayerNorm의 수학적 원리를 명확히 파악하고, 두 기법의 알고리즘적 차이를 심층적으로 비교 분석할 필요가 있다. 이 장에서는 두 정규화 기법의 수학적 정의를 단계별로 살펴보고, 이론적 계산 복잡도와 실제 하드웨어에서의 효율성 차이를 분석한다.

2.1 Layer Normalization의 수학적 정의

LayerNorm은 $n$ 차원의 입력 벡터 $a$ = $(a_1, a_2,..., a_n)$ 에 대해 다음과 같은 4단계 연산을 순차적으로 수행한다.

1단계: 평균(Mean) 계산

먼저, 벡터 a의 모든 요소들의 산술 평균 μ를 계산한다. 이는 입력 데이터의 중심을 찾는 과정, 즉 재중심화(re-centering)의 기준점을 설정하는 단계이다.
$\mu = \frac{1}{n} \sum_{i=1}^{n} a_i$
2단계: 분산(Variance) 계산

다음으로, 계산된 평균 μ를 사용하여 벡터 a의 요소들이 평균으로부터 얼마나 퍼져 있는지를 나타내는 분산 σ^2을 계산한다.
$\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (a_i - \mu)^2$
3단계: 정규화(Normalization)

평균 μ와 분산 σ^2을 이용하여 각 입력 요소 a_i를 정규화한다. 이 과정에서 각 요소에서 평균을 빼고 표준편차(σ)로 나누어, 결과적으로 평균이 0이고 분산이 1인 분포로 변환한다. 분모에 작은 양수 ϵ을 더하여 0으로 나누는 것을 방지한다.
$\hat{a}_i = \frac{a_i - \mu}{\sqrt{\sigma^2 + \epsilon}}$
4단계: 아핀 변환(Affine Transformation)

마지막으로, 정규화된 값 â_i에 학습 가능한(learnable) 파라미터인 이득(gain) g_i와 편향(bias) b_i를 적용한다. 이 단계는 정규화 과정에서 손실될 수 있는 정보, 즉 데이터의 원래 스케일과 위치 정보를 모델이 필요에 따라 복원할 수 있도록 유연성을 부여한다.4 많은 문헌에서 $g$ 와 $b$ 는 각각 $γ$ (감마)와 $β$ (베타)로 표기되기도 한다.1
$\bar{a}_i = g_i \hat{a}_i + b_i$
이 4단계 과정을 통해 LayerNorm은 입력 벡터의 분포를 안정적인 형태로 변환하면서도 모델의 표현력을 유지한다.

2.2 RMSNorm의 수학적 정의

RMSNorm은 LayerNorm의 복잡성을 줄이고 효율성을 높이기 위해 위 과정들을 대폭 간소화한다. 핵심은 재중심화(1단계)와 편향(4단계의 $b_i$ )을 제거하고, 분산 계산(2단계)을 더 간단한 통계량으로 대체하는 것이다.

1단계: 제곱 평균 제곱근(Root Mean Square) 계산

RMSNorm은 평균을 계산하는 대신, 입력 벡터 a의 제곱 평균 제곱근(RMS) 값을 직접 계산한다. RMS는 벡터 요소들의 제곱의 평균에 제곱근을 취한 값으로, 벡터의 크기 또는 에너지(magnitude)를 나타내는 척도이다.
$\text{RMS}(\mathbf{a}) = \sqrt{\frac{1}{n} \sum_{i=1}^{n} a_i^2 + \epsilon}$
2단계: 정규화 및 스케일링

계산된 RMS 값으로 입력 벡터의 각 요소 a_i를 나누어 스케일을 조정한다. 이후 LayerNorm의 편향(b_i) 없이, 오직 학습 가능한 이득(g_i) 파라미터만을 사용하여 최종 출력을 계산한다.1
$\bar{a}_i = \frac{a_i}{\text{RMS}(\mathbf{a})} g_i$
이 두 단계가 RMSNorm 연산의 전부이다. 여기서 주목할 점은, 만약 입력 벡터 $a$ 의 평균 $μ$ 가 정확히 0이라면, 분산 $σ^2$ 의 정의는 $(1/n) * Σ(a_i^2)$ 가 되어 RMS 값의 제곱과 같아진다. 즉, $μ=0$ 일 때 $σ = RMS(a)$ 가 성립하므로, 편향 $b_i$ 가 없다고 가정하면 LayerNorm과 RMSNorm은 수학적으로 동일한 연산이 된다.11 이는 RMSNorm이 ’평균이 0인 입력’이라는 특수한 경우에 대한 LayerNorm의 일반화된 형태로 볼 수 있음을 시사한다.

2.3 계산 복잡도 및 효율성 심층 분석

RMSNorm의 설계가 실제 성능 향상으로 이어지는 이유는 단순히 연산의 가짓수를 줄이는 것 이상의 의미를 갖는다. 특히 현대의 병렬 컴퓨팅 환경, 즉 GPU에서의 효율성은 연산량(FLOPs)뿐만 아니라 메모리 접근 패턴에 의해 크게 좌우된다.

이론적인 연산량(FLOPs) 관점에서 보면, LayerNorm은 평균 계산을 위한 $n-1$ 개의 덧셈, 분산 계산을 위한 $n$ 개의 뺄셈과 $n$ 개의 곱셈, 그리고 정규화를 위한 $n$ 개의 뺄셈과 $n$ 개의 나눗셈 등 복잡한 연산을 포함한다. 반면 RMSNorm은 RMS 계산을 위한 $n$ 개의 곱셈과 $n-1$ 개의 덧셈, 그리고 정규화를 위한 $n$ 개의 나눗셈만으로 구성되어 산술적으로 더 간단하다.3

그러나 실제 성능 차이를 결정짓는 더 근본적인 요인은 메모리 대역폭(memory bandwidth)의 활용 방식에 있다. GPU와 같은 가속기에서 연산을 수행할 때, 프로세싱 코어가 데이터를 계산하는 속도보다 거대한 전역 메모리(DRAM)에서 데이터를 읽고 쓰는 속도가 병목이 되는 경우가 많다. 이러한 ‘메모리 대역폭 제한(memory-bandwidth bound)’ 상황에서는, 계산량 자체를 줄이는 것보다 메모리 접근 횟수를 줄이는 것이 훨씬 더 효과적이다.15

LayerNorm 알고리즘을 메모리 접근 관점에서 분석해 보자. 평균 $μ$ 를 계산하기 위해서는 입력 텐서 전체를 한 번 순회하며(first pass) 모든 값을 읽어야 한다. 그리고 계산된 $μ$ 를 사용하여 분산 $σ^2$ 을 계산하기 위해서는 입력 텐서 전체를 다시 한번 순회하며(second pass) 각 값에서 $μ$ 를 빼고 제곱해야 한다. 이처럼 LayerNorm은 본질적으로 2-pass 알고리즘으로, 동일한 입력 데이터에 대해 최소 두 번의 전역 메모리 읽기 작업이 필요하다.17

반면, RMSNorm은 RMS 값을 계산하기 위해 입력 텐서의 각 요소를 제곱하여 합산하는 단 한 번의 순회(single pass)만으로 충분하다.18 즉, 1-pass 알고리즘이다. 이 차이는 사소해 보이지만, 대규모 텐서 연산에서는 막대한 성능 차이를 유발한다. 메모리 순회 횟수를 절반으로 줄임으로써 커널(GPU 연산 단위) 실행에 따르는 부수적인 오버헤드와 데이터 전송 지연 시간을 크게 감소시킬 수 있다.

결론적으로, RMSNorm의 효율성은 단순히 ’계산이 더 간단하다’는 표면적인 이유를 넘어선다. 이는 현대 병렬 컴퓨팅 아키텍처의 핵심 병목 지점인 메모리 대역폭을 훨씬 효율적으로 활용하도록 설계된 알고리즘적 우수성에 기인한다. 2-pass 알고리즘을 1-pass로 전환한 것이야말로, 일부 실험에서 관찰된 60%를 상회하는 극적인 속도 향상을 가능하게 한 진정한 원동력이다. 따라서 RMSNorm을 평가할 때는 단순한 FLOPs 비교를 넘어, 하드웨어의 특성을 고려한 메모리 접근 패턴의 효율성이라는 관점에서 이해하는 것이 필수적이다.

3. 기하학적 해석: 재중심화의 중복성에 대한 이론적 고찰

RMSNorm의 성공은 “LayerNorm의 재중심화 과정이 불필요하다“는 가설을 실증적으로 뒷받침했다. 최근 연구들은 이 가설에 대한 더 깊은 이론적, 기계론적(mechanistic) 설명을 제공하기 위해 LayerNorm의 연산을 기하학적 관점에서 재해석하고 있다. 이 접근법은 재중심화 과정의 본질을 명확히 하고, 왜 이 과정이 특정 조건 하에서 중복적인지를 설명하는 강력한 직관을 제공한다.19

3.1 LayerNorm의 기하학적 재해석

Gupta 등의 2024년 연구는 LayerNorm의 표준화(standardization) 과정을 $d$ 차원 벡터 공간에서의 기하학적 변환으로 설명한다.20 이 해석의 핵심 요소는 **균등 벡터(uniform vector)**이다.

균등 벡터(Uniform Vector): $d$ 차원 공간에서 모든 요소가 1인 벡터 $1 = [1, 1,..., 1]^T$ 를 정의한다. 이 벡터는 모든 특징 차원에 걸쳐 동일한 값을 갖는 방향, 즉 ‘공통 모드(common mode)’ 또는 ’평균 신호’의 방향을 나타낸다.
재중심화(Mean Subtraction)의 기하학적 의미: LayerNorm의 첫 단계인 평균 빼기 연산, 즉 $x' = x - μ$ 는 입력 벡터 $x$ 에서 $x$ 의 균등 벡터 $1$ 위로의 정사영(orthogonal projection) 성분을 제거하는 것과 수학적으로 동일하다. 벡터 $x$ 의 평균 $μ$ 는 $μ = (x \cdot 1) / d$ 로 표현될 수 있으며, $x$ 의 $1$ 방향으로의 정사영은 $μ * 1$ 이 된다. 따라서 $x - μ * 1$ 연산은 벡터 $x$ 에서 $1$ 방향 성분을 완전히 제거하여, 결과 벡터 $x'$ 가 균등 벡터 $1$ 과 직교하도록(orthogonal) 만든다. 기하학적으로 이는 벡터 $x$ 를 균등 벡터 $1$ 에 직교하는 $d-1$ 차원의 초평면(hyperplane)으로 투영하는 과정과 같다.19 이 투영을 통해 모든 특징 차원이 공유하던 공통된 크기 정보, 즉 평균 정보가 소실된다.

결론적으로 LayerNorm의 표준화 과정은 다음과 같은 세 단계의 기하학적 변환으로 요약될 수 있다 19:

입력 벡터 $x$ 에서 균등 벡터 $1$ 방향의 성분을 제거한다 (재중심화).
남아있는 벡터(균등 벡터에 직교하는)의 길이를 1로 만든다 (정규화).
결과 벡터의 길이를 $sqrt(d)$ 로 조정한다 (스케일링).

3.2 정보의 비가역적 손실(Irreversibility)

이 기하학적 해석은 LayerNorm의 중요한 특성인 **비가역성(irreversibility)**을 명확히 보여준다. 일단 재중심화 과정을 통해 균등 벡터 방향의 성분이 제거되면, 이 정보는 영구적으로 손실된다. 이후에 적용되는 아핀 변환, 즉 학습 가능한 이득(gain) $g$ 와 편향(bias) $b$ 를 사용하더라도 원래의 균등 벡터 성분을 완벽하게 복원하는 것은 불가능하다.19 이는 LayerNorm이 항등 변환(identity transform), 즉 입력을 그대로 출력하는 변환을 학습할 수 없음을 의미한다. 이는 배치 정규화가 학습을 통해 정규화 효과를 점차 줄여나가며 항등 변환에 가까워질 수 있는 것과 대조되는 중요한 차이점이다.23 이 비가역성은 LayerNorm이 모델의 표현 공간에 강력하고 영구적인 제약을 가함을 시사한다.

3.3 RMSNorm 기반 모델의 학습된 표현 분석

그렇다면 LayerNorm이 강제로 제거하는 균등 벡터 방향의 정보는 모델 성능에 얼마나 중요할까? 이 질문에 답하기 위해 연구자들은 LayerNorm을 사용하지 않고 RMSNorm으로 훈련된 대규모 언어 모델(LLM)의 내부 작동을 분석했다. Llama-2, Llama-3와 같이 RMSNorm을 표준으로 채택한 모델들의 은닉 상태(hidden states) 벡터를 추출하여 그 기하학적 분포를 조사한 결과, 놀라운 사실이 발견되었다.

추론(inference) 시, 이 모델들의 은닉 벡터들은 특별한 제약이 없음에도 불구하고 자연스럽게 균등 벡터 $1$ 에 거의 직교하는 방향으로 정렬되는 경향을 보였다.19 즉, 은닉 벡터들의 평균( $μ$ )이 0에 매우 가깝게 수렴하는 것이다.

이 현상은 모델이 훈련 과정에서 스스로 최적의 표현 방식을 학습한 결과로 해석될 수 있다. 입력 벡터의 평균값이 0이 아닌 경우, 이는 모든 특징 차원에 걸쳐 공유되는 일종의 ’공통 편향(common bias)’으로 작용한다. 이 편향이 다음 선형 계층(linear layer)을 통과하면, 가중치 행렬과 복잡하게 상호작용하여 예측에 불필요하거나 노이즈로 작용할 수 있는 구조적 성분을 출력에 추가하게 된다. 따라서 경사 하강법 기반의 최적화 과정은 이러한 비효율적인 정보 표현을 피하고, 모든 정보를 특징들 간의 상대적인 값 차이(즉, 평균이 0인 벡터)에 인코딩하는 방향으로 모델을 유도하는 것으로 보인다. 즉, 모델은 표현 공간의 용량을 낭비하지 않기 위해 스스로 평균이 0에 가까운 표현을 선호하게 되는 것이다.

3.4 재중심화의 중복성에 대한 결론

이러한 분석은 RMSNorm의 성공에 대한 강력한 이론적 근거를 제공한다. 만약 모델의 학습 동역학(learning dynamics)이 자연스럽게 평균이 0인, 즉 균등 벡터와 직교하는 표현을 선호하도록 이끈다면, LayerNorm이 이 과정을 명시적으로, 그리고 강제적으로 수행하는 것은 중복적인(redundant) 단계가 된다.19 이는 불필요한 계산 비용을 발생시킬 뿐만 아니라, 모델이 스스로 도달할 수 있는 최적의 지점을 인위적으로 강제하는 것과 같다.

결론적으로, 기하학적 해석은 재중심화가 왜 불필요한지를 명확히 보여준다. RMSNorm은 LayerNorm의 강제적인 기하학적 제약(초평면으로의 투영)을 제거함으로써, 모델이 최적화 과정을 통해 스스로 효율적인 표현 공간을 찾도록 허용한다. 이는 RMSNorm이 단순히 계산적으로 더 효율적일 뿐만 아니라, 모델의 자연스러운 학습 과정을 덜 방해하는, 더 원칙적인 접근법일 수 있음을 시사한다. 이처럼 정규화 기법은 단순히 훈련을 안정시키는 기술적 도구를 넘어, 고차원 표현 공간의 기하학적 구조를 형성하는 강력한 암묵적 정규화(implicit regularizer) 역할을 수행하며, RMSNorm은 이러한 역할을 보다 효율적이고 자연스러운 방식으로 달성하는 것이다.

4. 성능 및 효율성 실증 분석: 주요 과제별 실험 결과

RMSNorm의 이론적 우위와 기하학적 타당성은 실제 다양한 딥러닝 과제에서의 실증적 성능으로 입증되어야 한다. Zhang과 Sennrich (2019)의 제안 논문은 기계 번역, 질의응답, 이미지 분류 등 광범위한 분야에 걸쳐 RMSNorm과 LayerNorm의 성능 및 효율성을 비교하는 포괄적인 실험을 수행하였다. 본 장에서는 해당 논문의 핵심 실험 결과를 중심으로 RMSNorm의 실증적 효과를 심층 분석한다.9

4.1 종합 성능 비교

실험의 전반적인 결론은 명확했다. RMSNorm은 다양한 모델 아키텍처와 태스크에서 기존 LayerNorm과 대등하거나 일부 경우 더 우수한 성능을 달성하면서도, 훈련 실행 시간을 7%에서 최대 64%까지 현저하게 단축시켰다.9 아래 표는 주요 실험 결과를 요약한 것이다.

표 1: RMSNorm과 LayerNorm의 성능 및 속도 비교 (종합)

과제 (Task)	모델 (Model)	프레임워크 (Framework)	정규화 (Normalization)	성능 (Performance)	훈련 속도 (Time / 1k steps)	속도 향상 (vs. LN)
기계 번역	GRU-RNNSearch	Tensorflow	LayerNorm	22.6 BLEU	665s	-
(WMT14 En-De)			RMSNorm	22.4 BLEU	501s	+24.7%
			pRMSNorm (6.25%)	22.6 BLEU	493s	+25.9%
	GRU-RNNSearch	Theano	LayerNorm	22.3 BLEU	988s	-
			RMSNorm	22.5 BLEU	652s	+34.0%
	Transformer	Tensorflow	LayerNorm	26.6 BLEU	248s	-
			RMSNorm	26.8 BLEU	231s	+6.9%
질의응답	Attentive Reader	-	LayerNorm	-	392s	-
(CNN/Daily Mail)			RMSNorm	(더 낮은 검증 에러)	333s	+15.1%
이미지-캡션 검색	Order-Embedding	Theano	LayerNorm	47.9 R@1	12.02s	-
(MS COCO)			RMSNorm	48.7 R@1	7.12s	+40.8%
			pRMSNorm (6.25%)	46.8 R@1	4.34s	+63.9%
이미지 분류	ConvPool-CNN-C	-	LayerNorm	10.49% Error	39s/epoch	-
(CIFAR-10)			RMSNorm	8.83% Error	31s/epoch	+20.5%

주: 성능 지표는 과제에 따라 BLEU 점수(높을수록 좋음), R@1(Recall@1, 높을수록 좋음), 에러율(낮을수록 좋음)로 표시됨. 속도 데이터는 원본 논문 9에서 인용.

4.2 실험 결과 심층 분석

표의 결과를 세부적으로 분석하면 RMSNorm의 특성을 더 깊이 이해할 수 있다.

성능 측면 분석

대부분의 자연어 처리 과제(기계 번역, 질의응답, 이미지-캡션 검색)에서 RMSNorm은 LayerNorm과 통계적으로 유의미한 차이가 없는, 즉 대등한(comparable) 성능을 기록했다. BLEU 점수나 Recall@1 지표에서 소수점 단위의 미세한 등락은 있었으나, 전반적인 성능 수준은 일관되게 유지되었다. 이는 재중심화 과정이 실제 모델 성능에 미치는 영향이 미미하다는 핵심 가설을 강력하게 뒷받침한다.

더욱 주목할 만한 결과는 CIFAR-10 이미지 분류 과제에서 나타났다. 이 과제에서 LayerNorm은 정규화를 적용하지 않은 베이스라인 모델보다 오히려 성능이 저하되는(에러율 1.53%p 증가) 부정적인 효과를 보였다. 반면, RMSNorm은 베이스라인보다 미세하게 성능을 향상시키며(에러율 0.013%p 감소) LayerNorm보다 훨씬 나은 일반화(generalization) 성능을 보였다.9 이는 특정 조건 하에서 LayerNorm의 강제적인 재중심화가 모델의 학습에 방해가 될 수 있으며, 더 유연한 RMSNorm이 더 나은 해결책이 될 수 있음을 시사한다.

효율성 측면 분석

속도 향상률은 모델 아키텍처의 계산 병목 지점이 어디에 있는지에 따라 큰 편차를 보였다. 이는 알고리즘 최적화의 효과가 전체 시스템의 구조에 따라 어떻게 달라지는지를 보여주는 중요한 사례이다.

순차적 병목 모델 (RNN 계열): GRU 기반의 RNNSearch나 Order-Embedding 모델과 같이, 시퀀스의 각 타임스텝마다 정규화 연산을 순차적으로 반복해야 하는 아키텍처에서는 정규화 자체가 주요 계산 병목 중 하나가 된다. RNN에서 $h_t = f(Norm(W*h_{t-1} + U*x_t))$ 와 같이 정규화 연산은 순차적 의존성 고리 내에 위치한다. 시퀀스 길이가 $L$ 이라면 정규화 오버헤드는 $L$ 번 직렬로 누적된다. 이러한 구조에서는 RMSNorm의 효율성 개선 효과가 극대화되어 나타나며, 실험 결과에서도 30%에서 60%를 넘나드는 극적인 속도 향상을 기록했다.9
병렬적 병목 모델 (Transformer): 반면, 트랜스포머는 전체 시퀀스를 병렬로 처리한다. 정규화는 $L x d_model$ 크기의 텐서 전체에 한 번에 적용되며, 순차적 의존성을 만들지 않는다. 트랜스포머의 주된 계산 병목은 $O(L²*d)$ 복잡도의 셀프 어텐션과 $O(L*d²)$ 복잡도의 FFN 행렬 곱셈 연산이다. $O(L*d)$ 복잡도의 정규화 연산이 전체 계산에서 차지하는 비중은 상대적으로 작다. 따라서 정규화 단계를 최적화하더라도 전체 실행 시간에 미치는 영향은 제한적이며, 실험에서도 6.9%의 완만하지만 여전히 유의미한 속도 향상을 보였다.9

pRMSNorm (Partial RMSNorm) 분석

RMS 통계량을 전체 입력의 일부(예: 6.25%)만을 사용하여 근사하는 pRMSNorm 역시 대부분의 과제에서 원본 RMSNorm과 경쟁력 있는 성능을 유지했다. 이는 RMS 통계량 추정이 매우 견고하여 소수의 샘플만으로도 전체의 특성을 잘 대표할 수 있음을 보여준다. 특히 이미지-캡션 검색 과제에서는 63.9%라는 가장 높은 속도 향상을 기록했는데, 이는 텐서 슬라이싱과 같은 추가적인 최적화 기회를 제공하기 때문일 수 있다.9

종합적으로, 실증 분석 결과는 RMSNorm이 성능 저하 없이 상당한 계산 효율성 향상을 제공하는 매우 효과적인 LayerNorm의 대체재임을 명확히 보여준다. 특히 그 효과는 모델 아키텍처의 특성에 따라 달라지며, 순차적 연산이 지배적인 모델에서 가장 큰 이점을 제공한다는 점은 아키텍처 설계 시 중요한 고려사항이 될 수 있다.

5. 현대 대규모 언어 모델(LLM)에서의 RMSNorm 채택 동향

RMSNorm이 제안된 2019년 이후, 딥러닝 분야, 특히 자연어 처리 분야는 파라미터 수가 수십억에서 수조 개에 이르는 대규모 언어 모델(Large Language Model, LLM)의 시대로 접어들었다. 이러한 거대 모델의 훈련과 추론에는 막대한 계산 자원이 소모되므로, 아키텍처의 모든 구성 요소에서 효율성을 극대화하는 것이 무엇보다 중요해졌다. 이러한 배경 속에서 RMSNorm은 LLM 설계의 핵심적인 고려사항으로 부상하였다.

5.1 스케일의 시대: 효율성이 곧 성능

현대의 LLM은 수백에서 수천 개의 트랜스포머 블록을 쌓아 만들어진 극도로 깊은 신경망이다.5 이처럼 거대한 스케일에서는 각 훈련 스텝의 미세한 시간 차이가 누적되어 전체 훈련 기간과 비용에 막대한 영향을 미친다. 예를 들어, 1%의 속도 향상이라도 수개월에 걸친 훈련 과정에서는 수일 또는 수십만 달러의 계산 비용 절감으로 이어질 수 있다.12 따라서 LLM 아키텍처 설계에서 계산 효율성은 더 이상 부가적인 고려사항이 아니라, 모델의 성능 및 실용성과 직결되는 핵심적인 설계 목표가 되었다. RMSNorm이 제공하는 계산상의 이점은 이러한 시대적 요구와 완벽하게 부합했다.

5.2 RMSNorm을 채택한 주요 LLM 아키텍처

이러한 배경 하에, 다수의 최신 고성능 LLM들이 기존의 LayerNorm 대신 RMSNorm을 표준 정규화 기법으로 채택하였다. 이는 RMSNorm이 대규모 모델에서도 훈련 안정성을 충분히 보장하면서 계산 효율을 크게 높일 수 있음을 시사한다.

Llama Series (Meta): 오픈소스 LLM 생태계에 큰 영향을 미친 Llama, Llama 2, Llama 3 모델은 모두 아키텍처의 핵심 구성 요소로 RMSNorm을 사용하였다. Meta의 연구진은 훈련 안정성과 모델 수렴 속도를 유지하면서도 계산 비용을 최소화하기 위한 설계 결정의 일환으로 RMSNorm을 선택했다.19
Chinchilla & Gopher (DeepMind/Google): ‘컴퓨팅 최적(compute-optimal)’ 스케일링 법칙을 제시하며 LLM 연구에 큰 방향성을 제시한 Chinchilla 모델과 그 이전 세대 모델인 Gopher는 LayerNorm 대신 RMSNorm을 채택했다. 이는 대규모 훈련의 효율성을 극대화하려는 명확한 의도를 보여준다.13
Mistral & Mixtral (Mistral AI): 적은 파라미터로 높은 성능을 달성하여 주목받은 Mistral 7B 및 Mixture-of-Experts 모델인 Mixtral 역시 RMSNorm을 아키텍처에 적용하였다.26
T5 (Google): 텍스트-투-텍스트(Text-to-Text) 프레임워크를 제안한 T5 모델은 공식적으로는 ’편향(bias)이 없는 Layer Normalization’을 사용한다고 설명했다.30 수학적으로 이는 RMSNorm과 거의 동일한 연산이다. 하지만 Hugging Face Transformers 라이브러리에서의 초기 T5 구현은 비효율적인 커스텀 LayerNorm 코드를 사용하여 병목 현상을 일으켰고, 이로 인해 커뮤니티에서 최적화된 Fused RMSNorm 커널의 필요성이 제기되기도 했다.31

5.3 LayerNorm을 유지하는 LLM 아키텍처

반면, 일부 영향력 있는 LLM 계열은 전통적인 LayerNorm을 계속해서 사용하고 있다.

GPT Series (OpenAI): LLM 시대를 연 GPT-2, GPT-3를 포함한 OpenAI의 GPT 계열 모델들은 전통적인 LayerNorm을 기반으로 설계되었다.19
기타 모델: Meta의 OPT, NVIDIA의 Megatron-LM 등도 LayerNorm을 사용하는 대표적인 모델군에 속한다.26

이러한 정규화 기법 선택의 차이는 단순히 기술적인 선호도를 넘어, 각 연구 그룹의 핵심적인 설계 철학과 전략적 우선순위를 반영하는 것으로 해석될 수 있다. RMSNorm을 채택한 그룹(Meta, Mistral, DeepMind)은 계산 효율성과 확장 가능한 훈련을 최우선 가치로 두며, 재중심화 제거에 따른 성능 저하 위험이 무시할 수 있을 정도로 작거나 없다고 판단한 것으로 보인다. 반면, LayerNorm을 유지한 그룹(OpenAI)은 역사적으로 최고의 성능(state-of-the-art)을 달성하는 데 집중해왔으며, 잠재적인 표현력 손실의 위험을 감수하기보다는 검증된 기존 방식을 고수하는 보수적인 접근을 택했을 수 있다. 일부 연구에서 RMSNorm이 모델의 표현력을 저해할 수 있다는 우려가 제기된 바 있어 28, 이러한 우려가 LayerNorm 유지 결정에 영향을 미쳤을 가능성도 있다. 이처럼 정규화 계층의 선택은 LLM 개발의 기술적, 전략적 트레이드오프를 보여주는 중요한 지표가 된다.

5.4 Pre-Normalization 구조와의 시너지

현대 LLM 아키텍처의 또 다른 표준은 Pre-Normalization (Pre-LN) 구조의 채택이다. 원본 트랜스포머는 각 서브레이어 연산 후에 정규화를 적용하는 Post-LN 구조를 사용했지만, 이는 모델이 깊어질수록 경사 소실 문제로 훈련이 불안정해지는 경향이 있었다. Pre-LN은 각 서브레이어의 입력에 정규화를 적용하는 방식으로, 이 문제를 해결하고 훈련 안정성을 크게 향상시키는 것으로 입증되었다.5

대부분의 현대 LLM은 이 Pre-LN 구조를 채택하고 있으며, RMSNorm은 이 구조와 뛰어난 시너지를 발휘한다. Pre-LN 구조에서 RMSNorm은 각 트랜스포머 블록으로 들어오는 입력을 안정적으로 스케일링하는 역할을 매우 효율적으로 수행한다. 이는 수백 개에 달하는 블록을 통과하면서도 신호의 크기가 폭주하거나 소실되지 않도록 제어하여, 극도로 깊은 네트워크의 안정적인 학습을 가능하게 하는 핵심적인 메커니즘으로 작용한다.

6. RMSNorm의 장단점, 구현, 그리고 최적화

RMSNorm은 현대 딥러닝, 특히 LLM 분야에서 널리 채택되었지만, 모든 상황에 완벽한 해결책은 아니다. 이 장에서는 RMSNorm의 장점과 잠재적 단점을 종합적으로 평가하고, 주요 딥러닝 프레임워크에서의 구현 방식과 하드웨어 수준에서의 성능을 극대화하기 위한 최적화 기법을 살펴본다.

6.1 장점 및 단점 종합

장점:

계산 효율성: RMSNorm의 가장 명백하고 강력한 장점은 계산 효율성이다. LayerNorm의 평균 계산 및 관련 연산을 제거함으로써, 순수 연산량(FLOPs)과 메모리 접근 횟수를 모두 줄인다. 이는 훈련 및 추론 속도를 직접적으로 향상시키며, 특히 대규모 모델에서 상당한 시간과 비용 절감 효과를 가져온다.2
파라미터 효율성: 학습 가능한 편향(bias) 파라미터 $β$ 가 없으므로, 모델의 전체 파라미터 수가 미세하게 감소한다. 개별 정규화 계층에서는 사소한 차이지만, 수백 개의 계층으로 구성된 LLM에서는 의미 있는 파라미터 절감으로 이어질 수 있다.2
검증된 성능: 앞선 4장에서 분석했듯이, 광범위한 실험을 통해 RMSNorm이 다양한 과제에서 LayerNorm과 대등하거나 일부 경우 더 나은 성능을 보인다는 것이 입증되었다. 이는 효율성을 위해 성능을 희생하지 않아도 됨을 의미한다.9

잠재적 단점:

표현력 저하 가능성: RMSNorm의 유일하게 제기되는 잠재적 단점은 이론적인 표현력 저하 가능성이다. 재중심화 과정, 즉 입력의 평균을 0으로 맞추는 연산이 제거되었기 때문에, 만약 특정 태스크나 데이터 분포에서 입력의 평균값이 중요한 정보를 담고 있다면 RMSNorm은 이를 포착하지 못할 수 있다. 일부 연구에서는 이러한 이유로 RMSNorm이 트랜스포머의 표현 능력을 저해할 수 있다는 우려를 제기하기도 했다.13 하지만 3장에서 논의된 기하학적 분석과 같이, 실제 LLM에서는 모델이 스스로 평균이 0에 가까운 표현을 학습하는 경향이 있어 이 문제가 거의 관찰되지 않으며, 이는 이 단점이 실제 적용에서는 큰 문제가 되지 않음을 시사한다.

6.2 프레임워크 구현

RMSNorm의 효과와 인기가 입증되면서, PyTorch, TensorFlow와 같은 주요 딥러닝 프레임워크들은 이를 내장 모듈로 공식 지원하기 시작했다. 예를 들어, PyTorch에서는 $torch.nn.RMSNorm$ 클래스를 통해 손쉽게 RMSNorm을 모델에 통합할 수 있다.1

다음은 PyTorch를 사용한 RMSNorm의 간단한 구현 예시이다. 이 코드는 Llama와 같은 모델에서 사용된 참조 구현의 핵심 로직을 보여준다.35

# torchtune.modules.rms_norm의 소스 코드 기반 [36]
import torch
from torch import nn

class RMSNorm(nn.Module):
    """
    Root Mean Square Normalization 구현.
    논문: https://arxiv.org/abs/1910.07467
    """
    def __init__(self, dim: int, eps: float = 1e-6) -> None:
        super().__init__()
        self.eps = eps
        # 학습 가능한 이득(gain) 파라미터 'g'
        self.scale = nn.Parameter(torch.ones(dim))

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        # 안정적인 계산을 위해 float32로 캐스팅
        x_fp32 = x.float()
        
        # 제곱의 평균을 계산하고, 역제곱근(rsqrt)을 취함
        # rsqrt(y) = 1 / sqrt(y)
        variance = x_fp32.pow(2).mean(-1, keepdim=True)
        rsqrt = torch.rsqrt(variance + self.eps)
        
        # 입력에 역제곱근을 곱하여 정규화
        x_normed = (x_fp32 * rsqrt).type_as(x)
        
        # 학습된 스케일 파라미터를 적용하여 최종 출력 계산
        return x_normed * self.scale

이 구현은 RMSNorm의 핵심 연산, 즉 제곱 평균의 역제곱근을 계산하여 입력에 곱하고, 학습 가능한 스케일 파라미터를 적용하는 과정을 명확하게 보여준다.

6.3 Fused Kernel을 통한 하드웨어 수준 최적화

표준 프레임워크에서 제공하는 내장 모듈은 사용 편의성을 제공하지만, 하드웨어의 성능을 극한까지 끌어내지는 못할 수 있다. 특히 RMSNorm과 같이 연산량 대비 메모리 접근이 많은(memory-bandwidth bound) 연산의 경우, **커널 퓨전(Kernel Fusion)**이라는 하드웨어 수준 최적화 기법이 필수적이다.

커널 퓨전(Kernel Fusion)의 개념

GPU는 수천 개의 코어를 활용하여 병렬 연산을 수행하며, 각 연산은 ’커널’이라는 프로그램 단위로 실행된다. 커널 퓨전은 여러 개의 개별 커널(예: RMS 계산 커널, 나눗셈 커널, 스케일링 커널)을 하나의 통합된 커널로 합치는 최적화 기법이다.37 이렇게 하면 다음과 같은 이점이 있다:

메모리 접근 최소화: 각 커널 사이에서 중간 결과를 GPU의 느린 전역 메모리(DRAM)에 쓰고 다시 읽어오는 과정을 생략할 수 있다. 통합된 커널은 데이터를 한 번만 읽어와 빠른 온칩 메모리(SRAM, 레지스터)에 상주시키고 모든 연산을 마친 뒤 최종 결과만 전역 메모리에 쓴다.18
커널 실행 오버헤드 감소: 여러 커널을 순차적으로 실행하는 데 따르는 오버헤드를 줄일 수 있다.

RMSNorm과 커널 퓨전

RMSNorm은 그 자체로도 메모리 대역폭 제한적인 연산이지만, 트랜스포머 블록 내에서는 보통 선형 계층(행렬 곱셈) 직전에 위치한다. 행렬 곱셈은 대표적인 계산 집약적(compute-bound) 연산이다. 따라서 가장 효과적인 최적화는 RMSNorm 연산과 후속하는 행렬 곱셈 연산을 하나의 Fused Kernel로 묶는 것이다.18

예를 들어, ‘Fused RMSNorm + MatMul’ 커널은 다음과 같이 동작한다:

입력 텐서의 일부(타일)를 전역 메모리에서 온칩 공유 메모리로 로드한다.
공유 메모리에 있는 데이터를 사용하여 RMS 통계량을 계산한다.
계산된 통계량을 사용하여 데이터를 정규화한다.
정규화된 데이터를 온칩 메모리에 유지한 채로, 즉시 행렬 곱셈 연산을 수행한다.
최종 결과를 전역 메모리에 쓴다.

이러한 퓨전은 RMSNorm의 중간 출력 텐서를 전역 메모리에 생성하는 과정을 완전히 생략하여 메모리 병목 현상을 크게 완화하고, 실제 추론 및 훈련 속도를 눈에 띄게 향상시킨다.17 따라서 고성능 LLM 추론 엔진이나 훈련 프레임워크에서는 최적화된 Fused Kernel을 사용하는 것이 표준적인 관행이다.

7. 결론: 정규화 기법의 미래와 RMSNorm의 유산

RMSNorm은 딥러닝, 특히 트랜스포머 기반 대규모 언어 모델의 발전에 중요한 이정표를 제시했다. 그 영향력은 단순히 효율적인 정규화 계층을 제공하는 것을 넘어, 신경망 아키텍처 설계의 기본 원칙과 향후 연구 방향에 깊은 시사점을 남겼다.

7.1 RMSNorm의 핵심 기여 요약

RMSNorm의 핵심 기여는 세 가지로 요약할 수 있다.

첫째, 정규화 원리에 대한 통념에 도전하고 이를 실증적으로 증명했다. “LayerNorm의 성공에서 재중심화는 불필요하다“는 과감한 가설을 설정하고, 이를 실험적으로 입증함으로써 기존의 복잡한 정규화 방식이 반드시 최선이 아님을 보였다. 이는 신경망 구성 요소의 본질적인 역할을 재검토하는 비판적 연구의 중요성을 일깨웠다.

둘째, 대규모 모델의 실용성을 크게 향상시켰다. 계산 효율성과 모델 성능 간의 트레이드오프를 성공적으로 개선하여, LLM과 같이 막대한 계산 자원을 요구하는 모델의 훈련과 배포를 더욱 현실적으로 만들었다. RMSNorm의 등장은 LLM 시대의 본격적인 개화와 시기적으로 맞물려, 그 파급력이 더욱 증폭되었다.

셋째, 단순함의 가치를 재확인시켰다. 복잡한 문제를 해결하기 위해 반드시 더 복잡한 해결책이 필요한 것은 아니라는 점을 보여주었다. 핵심 원리를 파악하고 불필요한 부분을 과감히 제거하는 미니멀리즘적 접근이 때로는 더 우수하고 효율적인 결과를 낳을 수 있다는 설계 철학을 제시했으며, 이는 후속 연구에 중요한 영감을 주었다.

7.2 대안적 접근법과 미래 연구 동향

RMSNorm이 촉발한 ’정규화 간소화’라는 연구 흐름은 논리적으로 다음 단계, 즉 ’정규화 자체의 필요성’에 대한 질문으로 이어졌다. RMSNorm의 성공은 정규화의 본질이 통계량 계산이 아니라, 특정 안정화 ’효과’를 유도하는 데 있음을 시사했기 때문이다.

RMSNorm의 변형: 일부 연구는 RMSNorm을 기반으로 추가적인 개선을 시도했다. 예를 들어, 손실 없는 압축 개념을 도입하여 제로-평균 벡터의 중복성을 제거하는 Compressed RMSNorm (CRMSNorm)과 같은 기법이 제안되었다.32
정규화 없는 트랜스포머(Transformers without Normalization): 더 급진적인 접근법은 정규화 계층을 완전히 제거하려는 시도이다. 이 연구 흐름의 대표적인 예가 **Dynamic Tanh (DyT)**이다.41 DyT는 LayerNorm의 복잡한 입출력 관계가 결과적으로는 $tanh$ 함수와 유사한 S자 형태의 곡선을 그린다는 경험적 관찰에서 출발한다.43 이 관찰에 기반하여, DyT는 데이터의 통계량을 계산하는 대신, $y = tanh(αx)$ 형태의 학습 가능한 요소별 비선형 함수를 사용하여 정규화의 ’효과’를 직접 모방한다.45 여기서 $α$ 는 학습을 통해 최적의 스케일링 인자를 찾는다. 이는 데이터에 의존적인(data-dependent) 통계적 정규화에서 데이터 독립적인(data-independent) 학습 함수로의 패러다임 전환을 의미하며, RMSNorm이 연 지적 경로의 논리적 귀결이라 할 수 있다.

이러한 연구들은 LayerNorm에서 RMSNorm으로, 그리고 RMSNorm에서 DyT로 이어지는 명확한 지적 계보를 형성한다.

LayerNorm: 데이터 의존적인 통계량(평균, 분산)을 사용하여 정규화한다.
RMSNorm: 더 간단한 데이터 의존적 통계량(RMS)을 사용하여 정규화를 단순화한다.
DyT: 데이터 의존적 통계량을 완전히 제거하고, 학습 가능한 함수로 정규화의 효과를 모방한다.

이처럼 RMSNorm은 정규화 없는 아키텍처라는 새로운 연구 분야의 문을 연 결정적인 중간 다리 역할을 수행했다.

7.3 미래 신경망 아키텍처에 대한 시사점

RMSNorm의 유산은 미래 신경망 아키텍처 설계에 중요한 교훈을 남긴다. 미래의 아키텍처는 다음과 같은 방향으로 발전할 가능성이 높다.

하드웨어 친화적 설계: 계산량(FLOPs)뿐만 아니라 메모리 접근 패턴, 캐시 효율성 등 실제 하드웨어의 특성을 깊이 고려한 설계가 더욱 중요해질 것이다. RMSNorm의 1-pass 알고리즘과 Fused Kernel 최적화는 이러한 흐름의 좋은 예시이다.
원칙 기반의 단순화: 기존에 당연시되던 복잡한 구성 요소들을 비판적으로 재검토하고, 그 핵심 기능만을 추출하여 더 단순하고 효율적인 모듈로 대체하려는 노력이 계속될 것이다.
학습 동역학의 존중: 모델의 최적화 과정이 자연스럽게 도달하는 지점을 인위적으로 강제하기보다는, 이를 유도하고 보조하는 방식의 아키텍처 설계가 선호될 것이다. LayerNorm의 강제적 재중심화보다 RMSNorm의 유연한 접근이 더 효과적이었던 사례는 이를 뒷받침한다.

결론적으로, RMSNorm은 단순히 LayerNorm을 대체한 효율적인 계층에 그치지 않는다. 이는 딥러닝 커뮤니티가 정규화의 본질을 더 깊이 이해하고, 더 단순하고 효율적이며 원칙에 기반한 아키텍처를 탐구하도록 이끈 중요한 지적 촉매제였다. RMSNorm이 남긴 유산은 앞으로 등장할 새로운 세대의 신경망 아키텍처에도 깊이 각인되어 있을 것이다.

8. 참고 자료

LayerNorm and RMS Norm in Transformer Models - MachineLearningMastery.com, https://machinelearningmastery.com/layernorm-and-rms-norm-in-transformer-models/
The No-Nonsense Guide to Neural Network Normalization(BatchNorm, LayerNorm & RMSNorm):From math to code | by Shovon Sharma | Medium, https://medium.com/@shovonsharma/the-no-nonsense-guide-to-neural-network-normalization-batchnorm-layernorm-and-rmsnorm-37d080e58421
Batch Normalization, Layer Normalization and Root Mean Square Layer Normalization: A Comprehensive Guide with Python Implementations - After Hours Research, https://afterhoursresearch.hashnode.dev/batch-normalization-layer-normalization-and-root-mean-square-layer-normalization-a-comprehensive-guide-with-python-implementations
Layer Normalization - Department of Computer Science, University …, https://arxiv.org/abs/1607.06450
Normalization Techniques in Transformer-Based LLMs: LayerNorm, RMSNorm, and Beyond, https://sushant-kumar.com/blog/normalization-in-transformer-based-llms
[D][R] Is there a theoretical or fundamental reason why LayerNorm outperforms BatchNorm on RNN networks? - Reddit, https://www.reddit.com/r/MachineLearning/comments/b6q4on/dr_is_there_a_theoretical_or_fundamental_reason/
Deep Dive into Deep Learning: Layers, RMSNorm, and Batch Normalization - Francis Benistant, https://2020machinelearning.medium.com/deep-dive-into-deep-learning-layers-rmsnorm-and-batch-normalization-b2423552be9f
On Layer Normalization in the Transformer Architecture - arXiv, https://arxiv.org/pdf/2002.04745
Root Mean Square Layer Normalization - arXiv, https://arxiv.org/pdf/1910.07467
[1910.07467] Root Mean Square Layer Normalization - arXiv, https://arxiv.org/abs/1910.07467
bzhangGo/rmsnorm: Root Mean Square Layer Normalization - GitHub, https://github.com/bzhangGo/rmsnorm
RMSNorm: The Simplified Powerhouse Behind Modern LLMs | Kaggle, https://www.kaggle.com/discussions/general/556029
Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and Efficient Pre-LN Transformers, https://proceedings.neurips.cc/paper_files/paper/2023/file/8f1bacee31caf990a4f08d84f0ccb322-Paper-Conference.pdf
(PDF) Root Mean Square Layer Normalization - ResearchGate, https://www.researchgate.net/publication/336602599_Root_Mean_Square_Layer_Normalization
[D] Why does it matter that RMSNorm is faster than LayerNorm in transformers? - Reddit, https://www.reddit.com/r/MachineLearning/comments/1apb3th/d_why_does_it_matter_that_rmsnorm_is_faster_than/
Look Ma, No Bubbles! Designing a Low-Latency Megakernel for Llama-1B - Hazy Research, https://hazyresearch.stanford.edu/blog/2025-05-27-no-bubbles
agostini01/rms-norm-exercise - GitHub, https://github.com/agostini01/rms-norm-exercise
Generating Fast GPU Kernels without Programming in CUDA/Triton | by Zhihao Jia | Medium, https://zhihaojia.medium.com/generating-fast-gpu-kernels-without-programming-in-cuda-triton-3fdd4900d9bc
Re-Introducing LayerNorm: Geometric Meaning, Irreversibility and a Comparative Study with RMSNorm - arXiv, https://arxiv.org/html/2409.12951v1
[2409.12951] Geometric Interpretation of Layer Normalization and a Comparative Analysis with RMSNorm - arXiv, https://arxiv.org/abs/2409.12951
[Literature Review] Geometric Interpretation of Layer Normalization and a Comparative Analysis with RMSNorm - Moonlight, https://www.themoonlight.io/en/review/geometric-interpretation-of-layer-normalization-and-a-comparative-analysis-with-rmsnorm
Re-Introducing LayerNorm: Geometric Meaning, Irreversibility and a Comparative Study with RMSNorm | Request PDF - ResearchGate, https://www.researchgate.net/publication/384155556_Re-Introducing_LayerNorm_Geometric_Meaning_Irreversibility_and_a_Comparative_Study_with_RMSNorm
[QA] Re-Introducing LayerNorm: Geometric Meaning, Irreversibility and Comparative Study with RMSNorm - YouTube, https://www.youtube.com/watch?v=7or_wkDU-cI
Geometric Interpretation of Layer Normalization and a Comparative Analysis with RMSNorm, https://arxiv.org/html/2409.12951v2
Large language model - Wikipedia, https://en.wikipedia.org/wiki/Large_language_model
HAAN: A Holistic Approach for Accelerating Normalization Operations in Large Language Models - arXiv, https://arxiv.org/html/2502.11832v1
The Evolution of Llama: From Llama 1 to Llama 3.1 - Towards Data Science, https://towardsdatascience.com/the-evolution-of-llama-from-llama-1-to-llama-3-1-13c4ebe96258/
Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and Efficient Pre-LN Transformers - NeurIPS 2025, https://neurips.cc/virtual/2023/poster/69918
Chinchilla (language model) - Wikipedia, https://en.wikipedia.org/wiki/Chinchilla_(language_model)
T5 (language model) - Wikipedia, https://en.wikipedia.org/wiki/T5_(language_model)
[feature request] implement RMSNorm fused cuda kernel · Issue #1271 · NVIDIA/apex, https://github.com/NVIDIA/apex/issues/1271
[2305.14858] Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and Efficient Pre-LN Transformers - arXiv, https://arxiv.org/abs/2305.14858
[2002.04745] On Layer Normalization in the Transformer Architecture - arXiv, https://arxiv.org/abs/2002.04745
RMSNorm — PyTorch 2.8 documentation, https://docs.pytorch.org/docs/stable/generated/torch.nn.RMSNorm.html
RMSNorm — torchtune 0.2 documentation, https://docs.pytorch.org/torchtune/0.2/generated/torchtune.modules.RMSNorm.html
Source code for torchtune.modules.rms_norm - PyTorch documentation, https://docs.pytorch.org/torchtune/0.4/_modules/torchtune/modules/rms_norm.html
Kernel Operator Fusion - Aussie AI, https://www.aussieai.com/research/kernel-fusion
A Case Study in CUDA Kernel Fusion: Implementing FlashAttention-2 on NVIDIA Hopper Architecture using the CUTLASS Library - arXiv, https://arxiv.org/html/2312.11918v1
Part VI - Kernel Fusion in CUDA - Vrushank Desai, https://www.vrushankdes.ai/diffusion-policy-inference-optimization/part-vi—kernel-fusion-in-cuda
Deep Dive into Kernel Fusion: Accelerating Inference in Llama V2 - Lefebvre Sarrut’s AI blog, https://ai.lefebvre-sarrut.eu/2023/07/20/deep-dive-into-kernel-fusion-accelerating-inference-in-llama-v2/
Transformers without Normalization - arXiv, https://arxiv.org/html/2503.10622v1
[2503.10622] Transformers without Normalization - arXiv, https://arxiv.org/abs/2503.10622
Transformers without Normalization - CVF Open Access - The …, https://openaccess.thecvf.com/content/CVPR2025/papers/Zhu_Transformers_without_Normalization_CVPR_2025_paper.pdf
Transformers without Normalization - DynamicTanh - DyT - Jiachen Zhu, https://jiachenzhu.github.io/DyT/
Introducing Dynamic Tanh (DyT): A Normalization-Free Alternative for Transformers, https://medium.com/@bingqian/introducing-dynamic-tanh-dyt-a-normalization-free-alternative-for-transformers-c1427cd0f4cb